智能论文笔记

SoftMax是在致正面规范化的语言处理时现代神经网络的事实标准。然而，通过在词汇中产生致密概率分布，在每个生成步骤中具有非零机会，导致文本生成中的各种报告的问题。$ \ alpha $ - 彼得德·等（2019年，Arxiv：1905.05702）解决了这个问题，但比Softmax更慢。在本文中，我们提出了一种替代$ \ Alpha $ -Temax，它保持其良性特性，但与Optimized SoftMax一样快，并在机器翻译任务中实现PAR或更好的性能。

translated by 谷歌翻译

The Rediscovery Hypothesis: Language Models Need to Meet Linguistics

Vassilina Nikoulina , Maxat Tezekbayev , Nuradil Kozhakhmet , Madina Babazhanova , Matthias Gallé , Zhenisbek Assylbekov

分类：自然语言处理

2021-03-02

在NLP社区中有一个正在进行的辩论，无论现代语言模型是否包含语言知识，通过所谓的探针恢复。在本文中，我们研究了语言知识是否是现代语言模型良好表现的必要条件，我们称之为\ Texit {重新发现假设}。首先，我们展示了语言模型，这是显着压缩的，但在预先磨普目标上表现良好，以便在语言结构探讨时保持良好的分数。这一结果支持重新发现的假设，并导致我们的论文的第二款贡献：一个信息 - 理论框架，与语言建模目标相关。该框架还提供了测量语言信息对字词预测任务的影响的度量标准。我们通过英语综合和真正的NLP任务加固我们的分析结果。

translated by 谷歌翻译